天池赛IJCAI-17 口碑商家客流量预测解题思路

基本数据创建

result：每家店铺每日交易成功数量
view：每家店铺每日浏览量

参数分解

shop_info

shop_id	city_name	location_id	per_pay	score	comment_cnt	shop_level	cate_name..
商家id	城市名	所在位置编号	人均消费	评分	评论数	商铺等级	分类

shop_id：主键，索引
city_name：获取气温、消费能力、消费习惯
~~location_id~~：聚类算法，估计功效太低没什么意义，pass
per_pay：检测与result负相关，与view负相关。
socre：检测与result正相关，与view正相关。
comment_cnt：检测与result正相关，与view正相关。
shop_level：检测与result正相关，与view正相关。
cate_name：分类太细，考虑只保留使用“超市”和“美食”进行区分。

检测per_pay、score、comment_cnt、shop——level与view、result的关联度。
score有很大的问题：这个值是处于变动的。

user_pay

user_id	shop_id	time_stamp
付费用户id	商家id	消费时间

time_stamp：分解出日期day和时间time列。

user_view

user_id	shop_id	time_stamp
浏览用户id	商家id	浏览时间

time_stamp：分解出日期day和时间time列。

特征工程

1.考虑到口碑是2015年6月23日开始发布，必然遭遇冷启动和虚假数据问题，那么时间序列中，体现趋势的指标应该是7日移动平均线ma，影响最大的特征因子应该是最近一次的ma_7。
2.城市天气逻辑体现非常重要，主要划分了三级（晴，小雨/小雪/，大雨/雪），但划分后的效果并不很好。
3.当日是否为工作日，次日是否为工作日比较重要。
4.16年情人节到过年的那周视为噪音。
5.GDP作为特征果然没效果，删了。

感受

1.以不同可索引对象制造的模型再融合有巨大威力，第一次瞎配的权重都带来了最好的提升。
2.solo的问题不在于想法…判断出哪个想法提升最多是最重要的，当然这需要经验。
3.xgboost因为bug跑不起来，没时间走ARIMA，也没时间再上prophet，凄苦…水平不够时候有队友提升会比较快。
4.合理利用每日评分确定正确方向是非常有必要的，相信前几的差距已经是谁对趋势判断更敏锐了。
5.全身心的投入大约勉强能进前200，看wepon大神的blog，对底层的理解还是很重要，今后要加强学习和训练。